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(57) Abstract 



The invention relates to a mobile telephone which so as to pcmiit hands-free operation comprises means (1 1) for echo cancellation and 
means (12) for ihc dcrcvcrberation of the signal supplied by a microphone (2) of the mobile telephone. The tai^ctcd combining of different 
components, which can, for example, include units for voice recognition (5), automatic volume control (8. 10) and noise suppression (13, 
14), pennits efficient hands-free operation. Energy consumption can be minimized through the use of a dynamic compressor (6). 



(57) ZusaRunenfossung ** 

• Mobiltclefon. wobci zur Realisiening eines Freisprechbetriebs Miitcl (II) air Echounterdrttekung und Mittcl (12) zur Enthallung 
dcs von cincm Mikrofon (2) des Mobilletefons geliefeiten Signals vorgcschcn sind. Durch die zielgcrichtete Kombination verechiedcner 
Komponcnten. wobci beispiclswcisc auch Einheiten wir Sprachcriccnnung (5), zur automatischcn Vcrsiarkungsicgclung (8, 10) und zur 
Gcrauschuntcidriickung (13, 14) vorgcschcn scin kOnncn, wird cin cffizicnter Freisprechbctricb cimSgUcht Durch den Einsatz cines 
dyriamischen Komprcssors (6) kann der Enei^gieveitrauch roinimiut werdcn. 
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Beschreibung 

Mobiltelefoii .... 

5 Die vorliegende Erfindung betrifft ein Mobiltelefon, 

insbesondere ein Mobiltelefon, welches einem Behutzer ein 
Freisprechen ermoglicht. 

FUr Mobiltelefone, welche im wesentlichen in zellularen 
10 Netzen betrieben werden, sind inzwischen LOsungen bekannt, 
welche vollstandig auf eirier digitalen Signalverarbeitung 
beruhen (DSP) . Diese Standard-DSP-Losungen ermoglichen jedoch 
einem Benutzer bisher noch keinen Freisprechbetrieb. Dies 
liegt unter anderem daran, dafi mit dem Freisprechen mehrere 
15 Probleme veirbunden sind, die bei Mobiltelefonen nicht ohne 
weiteres behoben werden konnen. Diese Probleme betreffen 
beispielsweise das Powermanagement innerhalb des 
Mobiltelefons, da beim Freisprechen unter anderem eine 
groBere LautstSrke des Lautsprechers als.beim Handbetrieb 
20 notwendig ist, sowie die Bewaitigung der beim Freisprechen 
auftretenden Echo- und Halleffekte. 

Der vorliegenden Erfindung liegt daher die Aufgabe zugruhde, 
ein Mobiltelefon zu schaffen, welches einen Freisprechbetrieb 
25 ermbglicht, wobei insbesondere das vorgeschlagene 
Mobiltelefon eine vollstandig auf einer digitalen. 
Signalverarbeitung beruhende Losung ermoglichen soil. 

Diese Aufgabe wird gemaU der vorliegenden Erfindung durch ein 
30 Mobiltelefon mit den Merkmalen des Anspruchs 1 geldst. Die 
abhangigen Anspriiche beschreiben bevorzugte und vorteilhafte 
Ausfuhrungsformen der vorliegenden Erfindung, die ihrerseits 
zu einer Verbesserung der Eigenschaf ten des 
Freisprechbetriebs sowie zur UnterstUtzung der digitalen 
35 Signalverarbeitung beitragen. 
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Das erf indungsgemafie Mobiltelefon lunfaBt im Signaipfad 
zwischen dem Mikrofon und den Sende- und Kodiermitteln, 
welche die Koihmunikationsinformationen in kodierter Form an 
eine Basisstation Ubertragen, EchounterdrUckungsmittei, 
welche das von dem Mikrofon gelieferte elektrisch^ Signal 
derart verarbeiten, dafi ein von dem Mikrofon aufgenommener 
Echoeffekt weitgehend eliminiert wird, sowie 
Enthallungsmittel, welche das von dem Mikrofon gelieferte • 
Signal derart verarbeiten, dafi ein von dem Mikrofon 
aufgenommener Halleffekt unterdrUckt wird. 

Als Lautsprecher wird vorzugsweise ein Lautsprecher mit einer 
niedrigen elektrischen Impedanz, insbesondere im Bereich von. 
8 Ohm, und einer niedrigen akustischen Impedanz verwehdet. 
Das Mikrofon ist vorteilhaf terweise ein eindirektionales 
Mikrofon oder ein Mikrofon mit GerauschunterdrUckung , 

Das Mobiltelefon umfafit vorteilhaf terweise einen 
Sprachaktivitatsdetektor, welcher das von dem Mikrofon . 
gelieferte Signal und die Lautsprechersignale tlberwacht iind 
auswertet und davon abh^ngig auf den Zustand eines mit dem 
Mobiltelefon gefUhrten GesprSchs schliefit. So kann der 
Sprachaktivitatsdetektor durch Auswertung der Signalenergien 
erkennen, ob der feme Teilnehmer, der nahe Teilnehmer oder 
beide Teilnehmer sprechen. Ebenso erkenht der 
Sprachaktiviteitsdetektor, wenn augenblicklich Uberhaupt keine 
Kommunikationsinformationen Uber das Mobiltelefon 
ausgetauscht werden. Dieser Sprachaktivitatsdetektor erzeugt 
ein Ausgangssignal, welches die augenblickliche 
Sprachaktivitat am Mobiltelefon kennzeichnet . Dariiber hinaus 
kann der Sprachaktivitatsdetektor auch durch Oberwachung des 
von dem Mikrofon gelieferten Signals eine Abschatzung des 
Signal-Gerauschabstands durchfuhren sowie. ein entsprechendes 
weiteres Ausgangssignal bereitstellen. 

Sowohl in dem Lautsprecherpf ad als auch in dem Mikfofonpfad 
konnen VerstSrkungsmittel mit einem variablen 
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3 ' . .■ 

Verstarkungsfaktor geschaltet sein, wobei der 
Vers tar kungsfaktor jeweils automatisch in AbhSngigkeit von 
dem den Signal-Gerauschabstand anzeigeriden Aus gangs signal des 
Sprachaktivitatsdetektors eingestellt wird. Ebenso konnen in 
5 dem Mikrofonpfad Mittel zur GerSuschunterdrtickung geschaltet 
sein, wobei der Grad der Gerauschunterdruckung ebenfalls in 
Abhangigkeit von dem den Signal-Gerauschabstand anzeigenden 
Ausgangssignal des Sprachaktivitatsdetektors einge'stellt 
wird. 
10 ' 

Die Echounterdruckungsmittel sowie die Enthallungsmittel des 
Mobiltelefons werden von dem die augenblickliche 
Sprachaktivitat bzw. den augenblicklichen Gesprachszustand 
anzeigenden Ausgangssignal des Sprachaktivitatsdetektors 

15 angesteuert. Die Echounterdruckungsmittel erzeugen cjavon 
abhangig ein Steuer signal, welches die von ihnen selbst 
realisierte Echounterdruckung abschatzt, so daB ein 
zusatzlich vorgesehenes Dampfungsglied mit variablem 
Dampfungsfaktor entsprechend in /yDhangigkeit von dem 

20 Steuersignal eingestellt werden kann. Die Enthallungsmittel 
schatzen durch Uberwachung des von dem Mikrofon gelieferten 
Ausgangssignals die akustische Impulsantwort des Raums, in 
dem sich der Sprecher befindet, ab, falls das die 
augenblickliche Sprachaktivitat anzeigende Ausgangssignal des 

25 Sprachaktivitatsdetektors ein Einzelgesprach anzeigt, bei dem 
der Sprecher sich am anderen (abgelegenen) Ende der 
Ubertragungsstrecke befindet. Die dadurch gewonnene 
akustische Impulsantwort des Raumes kann ftir eine 
wirkungsvolle Entzerrung des von dem Mikrofon gelieferten 

30 Signals zur Enthallung verwendet werden. 

Den Decodier- und Empf angsmitteln des Mobiltelefons, die ein 
von einer Basisstation Obertragenes Kommunikat ions signal 
decodieren und dem Lautsprecher des Mobiltelefons zufUhren, 
35 kann ein Dynamikregler nachgeschaltet sein, der dieses 
Eingangssignal komprimiert oder expandiert, um somit das 
Verhaltnis des Spitzenstrombedarf s zum 
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Durchschnlttsstrombedarf des Mobiltelefons zu verringern und 
die Dimensionierung der Stromversorgung effizienter gestalten 
zu kGnpen. Dariiber hinaus kann . v.or den Codier- und 
Senderaittelri des Mobiltelefons- eine zusatzliche Einheit zur 
GerSuschunterdrtickung geschaltet sein, welche von den beiden 
zuvor erwahnten Ausgangssignalen des 

Sprachaktivitatsdetektors angesteuert wird, um den Horkomfort 
beim Freisprechbetrieb des Mobiltelefons zu verbessern. 

Die vorliegende Erf indung liefert eine zielgerichtete 
Kombination verschiedener Komponenten zur Realisierung eines 
effektiven Freisprechbetriebs mit einem Mobiltelefon. Die 
vorliegende Erfindung ermbglicht eine Miniaturisierung der 
verwendeten Bauteile und beruht insbesondere auf einer 
vollstandigen digitalen . Signalverarbeitungslbsung/ d. h. 
samtliche Operationen werden durch eine digitale 
Signalverarbeitung ausgefiihrt. Durch die erf indungsgemafi 
vorgeschlagene EchounterdrUckung kann eine korafortable 
Konversation realisiert werden, wShrend durch die Enthallung 
eine verbesserte Sprachverstandlichkeit moglich ist. 

Die vorliegende Erfindung wird nachfolgend unter Bezugnahme 
auf die beigefUgte Zeichnung ahhand eines bevorzugten 
Ausftihrungsbeispiels naher eriautert, wobei die einzige Figur 
ein vereinfachtes schematisches Blockschaltbild dieses 
bevorzugten Ausftihrungsbeispiels darstellt. 

Die Luf tschnittstelle des in Fig. 1 gezeigten Mobiltelefons 
umfaBt eine Empfangs- und Decodiereinheit 3, welche ein von 
einer Basisstation gesendetes Eingangssignal decodiert, sowie 
eine Sende- und Codiereinheit 4, die an eine Basisstation zu 
iibertragende Signale codiert und iibertragt. Die Empfangs- und 
Decodiereinheit 3 ist mit einem Lautsprecher 1 des 
Mobiltelefons gekoppelt, wahrend ein Mikrofon 2 des 
Mobiltelefons Uber einen entsprechenden Signalpfad mit der 
Sende- und Codiereinheit 4 verbunden ist. 
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FUr eine ausreichende FunktionalitSt des Lautsprechers ist es 
erforderlich, einen Lautsprecher 1 mit einer niedrigen 
elektrischen Impedanz, insbesondere einen Lautsprecher- mit 
einer 8 Ohm-Hdrkapsel, zu verwenden, , lam eine ausreichende * 
5 akustische Leistung, welche im Bereich zwischen 0,5 und IW 
liegen soil, zu erzielen. Im Empfangs- oder Handbetriebsmodus 
sollte das Frequenzansprechverhalten des GSM- 
Mobiifunkstandards eingehalten werden, so dafi diesbezfiglich 
vorgeschlagen wird, einen Lautsprecher 1 mit einer niedrigen 
10 .akustischen Impedanz zu verwenden. Der Lautsprecher 1 sollte 
dariiber hinaus zur Echo- oder Ref lexionsdaimpfung iiber eine 
moglichst geringe Eigenverzerrung verftigen. 

Als Mikrofon 2 kann prinzipiell ein Kugel- oder 
15 Allrichtungsmikrofon sowie ein eindirektionales Miki;ofon 

verwendet werden. Die experimentelien Ergebnisse haben jedoch 
gezeigt, daB die beste Leistung bei Verwendung eines 
eindirektionalen oder gerSuschunterdrtickenden Mikrofons 
erzielt werden kann. Dies hat allerdings ftir die mechanische 
20 Ausgestaltung des Mikrofons strengere Anforderungen zur 
' Folge, was insbesondere fUr die Schallabdichtung .der 
Schalleingange des Mikrofons gilt. 

Ein zentraler Bestandteil des in Fig. 1 gezeigten 
25 Mobiltelefons ist ein Sprachaktivitatsdetektor 5, der eine 

Sprachaktivitat der Obertragungstrecke erfaBt, an deren einen 
Ende das Mobiltelefon ist. Der Sprachaktivitatsdetektor 5 
iiberwacht das von dem Mikrofon 2 gelieferte Ausgangssignal 
sowie das von der Empfangs- und Decodiereinheit 3 gelieferte 
30 Ausgangssignal und kann anhand der Energien dieser Signale 
feststellen, ob der ferne Teilnehmer, der nahe Teilnehmer 
Oder beide Teilnehmer sprechen. Vor allem kann entschieden 
werden, ob es sich bei dem augenblicklichen GesprSch um ein 
Doppel- Oder Zweiergesprach, bei dem das Mikrofonsignal 
35 Sprachinformationeh von Sprechern an beiden Enden der 
Obertragungsstrecke enthait, oder ob es sich um ein 
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Einzelgespfach des fernen Teilnehmers handelt, bei dem das 
Mikrophoiisignal eine Echo enthait. 



Ebensb kann der Sprachaktivitatsdetektor 5 feststellen, "daft 
5 augenblicklich tiberhaupt keine Sprachaktivitat vorliegt. Der 
Sprachaktivitatsdetektor 5 liefert diese Entscheidung anhand 
der Auswertxang von iSchwellenwerten; welche an den 
augenblicklichen Gerauschpegel angepaBt werden, so dafi eine 
zuverlassige Entscheidung sowohl b.ei ruhigen als auch lauten 

10 Umgebungsgerauschen moglich ist. Mi't dieser \Anpassung der 
Schwellenwerte ist zudem eine Abschatzung des StOrpegels 
isowie des Signal-Gerauschabstands yerbunden. Der 
Sprachaktivitatsdetektor 5 liefert somit zwei Aus gangs signale 
VA und SNR, wobei das eine Ausgangssignal VA die 

15 augenblickliche Sprachaktivitat kennzeichnet, wahrend das 

andere Ausgangssignal SNR den Signal-Gerauschabstand (Signal- 
to-Noise-Ratio, SNR) bezeichnet. 

Die Stromversorgung der in Fig. 1 gezeigten Bauteile mufi im 

20 Zusammenhang mit dem gesamten Powermanagement-System des 

Mobiltelefons gesehen werden und hSngt insbesondere von der 
Art der verwendeten Batterien bzw. Akkumulatoren (z. B. deren 
Versorgungsspannung und Innenwider stand) , der Art der 
verwendeten HF-LeistungsverstSrker und der verwendeten Logik- 

25 Versorgungsspannung ab. Dabei besteht ein wesentliches 

Problem bei einem Freisprechbetrieb von Mobiltelefonen, die 
in zellularen Netzen betrieben werden, darin, dafi die von dem 
Lautsprecher 1 abgegebene Schalleistung im Vergleich zum 
herkommlichen Fall ohne Freisprechbetrieb hoher sein muB. 

30 Andererseits besteht grundsatzlich bei batterieversorgten 
Produkten, wie beispielsweise im vorliegenden Fall bei 
Mobiltelefonen, das BedUrfnis nach einem moglichst geringen 
Energieverbrauch. Bekanntermaiien weisen insbesondere 
Sprachsignale aufgrund ihrer hohen Instabilitat ein besonders 

35 hohes Verhaitnis des Spitzenamplitudenwerts zum 

Durchschnittsamplitudenwert auf . Die Stromversorgung des 
Mobiltelefons mufi daher in der Lage sein, einerseits das 
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Gerat wShrend Perioden, in denen Sprachsignale iiiit 
Spitzenamplitudenwerten vorliegen, und andererseits im 
Durchschnitt mit einer deutlich niedrigeren Leistung zu 
betreiben. 

5 

Aus diesera Grunde ist bei dem in Fig, 1 gezeigten 
Mobiltelefon eine dynamische Steuerung des • Sprachsign'als 
durch eine entsprechende digitale Signalverarbeituhg 
vorgesehen, ehe das Sprachsignal dem Lautsprecher 1 zugefiihrt 
10 wird. Dies hat den Vorteil, dafi mit relativ einfachen Mitteln. 
und geringem Aufwand sowie kostengiinstig eine effizientere 
Dimensionierung der Stromversorgung erzielt werden kann. 

Diese dynamische Steuerung der Sprachsignale hat zum Ziel, 

15 den Dynamikbereich der Audiosignale zu vergroBern b^w, zu 
verringern, ohne dabei wahrnehxobare Verzerruhgen 
hinzuzuf Ugen . Dabei wird ein Dynamikprozessor verwendet, der 
gewOhnlich aus mehreren Stufen besteht, nSinlich aus einem 
Begrenzer, einem Kompressor, einem Expander und einero 

20 Rauschf ilter . Es kann bspw. die Kombination aus einem 

kompressof und einem (nicht gezeigten) Begrenzer gewahlt 
werden, wenn das Ziel primar die Verringerung des 
Verhaitnisses des Spitzenstrombedarf s zum 
• Durchschnittstrombedarf und die Begrenzung der 

25 Spitzenleistung ist. Dabei wird hinsichtlich des Begrenzers 
eine eingangsgesteuerte, vorwartsgekoppelte Begrenzerstruktur 
mit einem Verzogerungselement der servo-riickgekoppelten 
Struktur vorgezogen. Diese Struktur besitzt den Vorteil, daB 
Oberschwinger am Ausgang des Begrenzers vollstandig vermieden 

30 werden konnen und eine genau definierte Steuerung moglich 
ist. Bei einer blockweisen Sprachverarbeitung kann ftir das 
zuvor erwahnte Verzogerungselement eine geringe 
Verzogerungszeit gewahlt werden. Die statische Kennlinie des 
Kompressors wird durch verschiedene Schwellenpunkte im 

35 logarithmischen Bereich definiert, wobei die logarithmischen 
bzw. exponent iellen Funktionen des Kompressors in Form von 
Nachschlagtabellen (Look-Up-Tables) implementiert sind. 
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Durch die Dynamikregelung in Form einer digitalen. 
Signalverarbeitung konnen die Ansprech- und 

Freigabezeitkonstanten unabhangig ' voneinander gewahit werden. 
Dies wird in beiden Fallen durch die Verwendung von 
(exponentiellen) Filtern erster Ordhung erzielt. Die 
Spitzehwertr und Mittelwerterfassun.g wird derart kpmbiniert, • 
dafi isolierte Spitzenwerte mit einer relativ kurzen 
Freigabezeit verarbeitet werden, wkhrend die Freigabezeit ftir 
Signalpterioden mit einem hGheren durchschnitt lichen 
Signalpegel erhbht werden. Durch diese Vorgeheiisweise kann 
eine unnGtige Kompression sowie eine Verzerrung des 
Eingangssignals verhindert werden. Der Begrenzer muB jedoch . 
fur hohe durchschnittliche Signalpegel aktiv sein. 

Dem in Fig. 1 gezeigten Dynamikregler 6 ist ein nichtlinearer 
Entzerrer 7 nach geschaltet. Da der Lautsprecher 1 nahe 
seiner Sattigung betrieben werden muli, nehmen die 
nichtlinearen Verzerrungen, wie beispielsweise harmonische 
Verzerrungen oder Intermodulationsverzerrungen, zu. Um diesen 
ungewUnschten Effekt zu yerringern, mufi eine nichtlineare 
Verzerrung. durchgefUhrt werden, wobei als Algorithmen hierzu 
beispielsweise Algorithmen yerwendet werden kdnnen, die auf 
den in W. Frank, R. Reger, U. Appel, ^Realtime Loudspeaker 
Linearization", IEEE, Winterworkshop on Nonlinear Digital 
Signal Processing, Tampere, Finnland, 2.1 - 2.3, 1993, 
beschriebenen Algorithmen aufbauen. 

Wie bereits zuvor erwahnt worden ist, ist ein mit dem 
Freisprechen bei Mobiltelefonen verbundenes Problem 
insbesondere die Tatsache, daft im Freisprechbetrieb eine 
groiiere Lautstarke des Lautsprechers 1 im Vergleich zum 
normalen Handbetrieb erforderlich ist. Ebenso ist im 
Freisprechbetrieb eine groBere Empf indlichkeit des Mikrofons 
2 erforderlich. Es wird daher vorgeschlagen, die Lautstarke 
des Lautsprechers 1 in Abhangigkeit von dem Storpegel der 
Umgebung des .Mobiltelefons einzustellen. Dem Lautsprecher 1 
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ist daheri ein Leistungsversfarker 9 vorgeschaltet, der von 
einer automat ischen Verstarkungsregelung 8 angesteuert wird. 
Die automat ische Vers tar kungsregei.ung 8 wird- ihrerseits von • 
dem SNR-Ausgangssignal der Spracherkennungseinheit 5 
5 angesteuert; so daB die automatische Verstarkungsregelung 8 
den Verstarkungsfaktor des Leistungsverstarkers 9 in 
Abhangigkeit von dem durch die Spracherkennungseinheit 5 
abgeschatzten Signal-Gerauschabstand einstellen kann. Von 
grofierer Bedeutung als die automatische Verstarkungsregelung 

10 8 ist eine weitere automatische Verstarkungsregelung 10, 
welche mit dem Mikrofon 2 gekoppelt ist. Wegen der 
unterschiedlichen Entfernungen zwischen dem Sprecher und dem 
Mikrofon 2 schwankt der Signalpegel des von dem Mikrofon 2 
auf genoramenen Mikrof onsignal in einem groBen Bereich. Dieser 

15 Effekt muJi durch den variablen Verstarkungsfaktor der 

automatischen Verstarkungsregelung 10 ausgeglichen werden. 
Auch die automatische Verstarkungsregelung 10 wird durch das 
SNR-Ausgangssignal der Spracherkennungseinheit 5 angesteuert. 

20 Ein weiterer . wesentlicher Bestandteil des in Fig. 1 gezeigten 
Mobiltelefons ist eine EchounterdrUckungseinheit 11, welche 
in dem Signalpfad zwischen dem Mikrofon 2 und der Sende- und 
Codiereinheit 4 geschaltet ist. Die EchounterdrUckungseinheit 
11 besitzt die Aufgabe, ein zwischen dem Lautsprecher 1 und 

25 dem Mikrofon 2 erzeugtes akustisches Echo zu eliminieren bzw. 
zu unterdriicken. Diesbeziigllch sei beispielsweise .auf die 
Verof f entlichung ^Signal Processing'', Special Issue on 
Acoustic Echo Control, Vol. 21, No. 3, Juni 1992, verwiesen. 
Neben dem zwischen dem Lautsprecher 1 und dem Mikrofon 2 

30 vorhandenen Echopfad kann wegen des hohen Signalpegels am 

Lautsprecher 1 und den daraus resultierenden Vibrationen ein 
weiterer Echopfad Uber das Gehause des Mobiltelefons fUhren. 
Abhangig von der Umgebung, in der das Mobiltelefon betrieben 
wird, kann die akustische Impulsantwort eine sehr lange Dauer 

35 besitzen. Um der damit verbundenen verringerten Leistung 

gerecht zu werden, kann eine explizite Dezimierung, wie sie 
beispielsweise in R.E. Crochiere und L. R. Rabiner, Multirate 
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Digital Signal Processing, Prentice-Hall, New Jersey, 1983, 
beschrieben ist, oder eine implizite Dezimierung, wie sie 
beispielsweise in W. Frank, I. Varga, „Iinplicit Decimation 
for FIR Systems and its implication to Acoustic EcHo 
Cancellation", International Conference on Acoustfcs, Speech . 
and Signal Processing, Phoenix, Arizona, 1999, beschrieben 
ist, durchgefuhrt werden. Die Echounterdrtickungseinheit 11 
kann abhangig von dem VA-Ausgangssignal der 
Spracherkennungseinheit 5 abschatzen, inwieweit sie ein .in 
dem von dem Mikrofon 2 aufgenommenen Signal enthaltenes Echo 
unterdriicken kann. Die Echounterdrtickungseinheit 11 erzeugt 
demzufolge ein Ausgangssignal, welches eine Information tiber 
den Umfang der Echounterdruckung durch die 
Echounterdrtickungseinheit 11 enthalt (Echo Return Loss 
Enhancement, ERLE) . Ein besonderes Problem ist die 
Unterscheidung zwischen einem EinzelgesprSch, bei dem der 
Sprecher am anderen Ende der Obertragungsstrecke ist, und 
einem Doppelgesprach, d. h. die Entscheidung, ob das 
Mikrofonsignal lediglich das Echo eines Sprechers am anderen 
Ende der tJbertragungsstrecke oder zusatzlich auch das Echo 
des Sprechers am diesseitigen Ende der Obertragungsstrecke 
enthalt. Es mtissen daher von dem Sprachaktivit^tsdetektor 5 
weitere Merkmale, beispielsweise die Kreuzkorrelation 
zwischen dem Mikrofonsignal und des ERLE-Ausgangs signals der 
Echounterdrtickungseinheit 11, welches daher dem 
Sprachaktivitatsdetektor 5, wie Fig, 1 entnommen werden kann, 
zugefiihrt wird. 

Wie in Fig. 1 gezeigt ist, ist vor die Sende- und 
Codiereinheit 4 ein Dampfungsglied 14 mit einem variablen 
Dampfungsf aktor geschaltet. Diesem Dampfungsglied 14 werden 
sowohl das ERLE-Ausgangssignal der Echounterdrtickungseinheit 
11 als auch die VA- und SNR-Ausgangssignale der 
Spracherkennungseinheit 5 zugefUhrt, um da von abhangig den 
Dampfungsf aktor einzustellen. Das Dampfungsglied 14 dient 
dazu, das Mikrofonsignal zusatzlich abzudampfen, falls die 
von der Echounterdrtickungseinheit 11 durchgeftihrte 
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Echounterdriickung nicht ausreicht. Aus diesem Grunde wird das. 
ERLE- und das SNR-Signal dem Dampf ungsglied 14 zugefiihrt, so 
daB mit abnehmender, durch die- EchounterdriiGkungseinheit 11 ■ 
realisierter EchounterdrUckung der Dampfungsf aktor des 
Dampfungsglieds 14 erhoht werden kann. Bei einem niedrigen 
Signal-Gerauschabstand, welcher durch das SNR-Ausgangs signal 
des Sprachaktivitatsdetektors 5 angezeigt wird und 
gleichbedeutend mit einem hohen St6rpegel ist, sollte der 
Dampfuncfsfaktor des Dampfungsglieds. 14 reduziert werden, um 
eine starke Modulation des Storpegels zu verhindern. Das 
verbleibende Echo wird ohhehin durch das in dem Signal 
enthaltene Rauschen verdeckt. 

Die von dem Mikrofon 2 des Mobiltelef ons im Freisprechbetrieb . 
aufgenoramenen Sprachsignale enthalten gewohnlicherweise 
Starke Hallef fekte, die. durch Raumref lexionen verursacht 
werden. Durch das ungleichmaBige Amplitudenspektrum wird in 
kleinen Raumen lediglich eine bestimmte Gerauschverteilung 
wahrgenommen, wShrend in grofien RHumen friihe Reflexionen als 
Echo und spate Reflexionen als .Hallef fekt wahrgenommen 
werden. Das stereophonische Wahrnehmungsvermogen des 
menschlichen Gehbrs ermSglicht eine gute Spracherkennung, 
falls sich der HSrer in dem Raum selbst befindet. Das 
stereophonische Wahrnehmungsvermogen kann jedoch dann nicht 
korrekt arbeiten, wenn ein in einem einzigen Kanal 
aufgenoimnenes und ubertragenes Sprachsignal wahrgenommen 
wird. Zu diesem Zweck ist eine Enthallungseinheit 12 
vorgesehen, welche darauf abzielt, in diesen Situationen die 
Sprachverstandlichkeit zu verbessern und einen komf ortableren " 
Freisprechbetrieb zu ermoglichen. 

Die von der Enthallungseinheit 12 durchgefuhrte Enthallung 
basiert auf den Prinzipien der Dekonvolution oder Entzerrung, 
wie sie beispielsweise in S.T. Neely, J. B. Allen, 
„Invertibility of a Room Impulse Response'', J. Acoust. Soc. 
Am., Vol. 66, No. 1, Seiten 165-169, Juli 1979, beschrieben 
sind. Zur Aufbereitung von Sprachsignalen, die durch 
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Halleffekte verzerrt sind, wurden drei unterschiedliche 
Verfahren ausgearbeitet und experimentell untersucht. Der 
erste Ansatz umfafit die Verwendung eines Mikrofonarrays und 
eines Nachbearbeitungsalgorithmus . In diesem Fall b'asiert die 

- 5 Deconvolution darauf, dafi die Korrelation zwischeji den 

Impulsantworten jedes einzelnen Mikrofons fOr zeitlich spate 
Halleffekte niedrig ist. Bei dem zweiten Verfahren wird die 
Zeitspanne, in der von dem Sprachaktivitatsdetektor 5 ein . 
Einzelgesprach rtiit einem Sprecher am anderen Ende *der 

10 Obertragungsstrecke festgestellt wird, ausgenutzt, um die 
. Raum-Impulsantwort abzuschatzen. Die dadurch gewonnene 
Raumimpulsantwort wird dem Enthallungsalgorithmus zugrunde 
gelegt. Aus diesem Grund ist bei der in Fig. 1 gezeigten 
Anordnung der Enthaliungseinheit 12 das VA-Aus gangs signal des 
■ 15 Sprachaktivitatsdetektors 5 zugefuhrt, um den Beginn und das 
Ende dieser Zeitspanne, in der ein Einzelgesprach mit einem 
Sprecher am anderen, abgelegenen Ende der Obertragungsstrecke 
gefUhrt wird, festzustellen. GemSfi dem dritten Ansatz wird 
vorgeschlagen, das Deconvolutionproblem wie ein 
. 20 Minimierungsproblem zu behandeln. Diese einzelnen AnsStze 
kOnnen miteinander kombiniert werden, wodurch zwar die 
Komplexitat erh6ht wird, gleichzeitig jedoch auch eine 
verbesserte Leistungsfahigkeit der Enthaliungseinheit 12 
realisiert werden kann. 

— 25 

Zwischen der in Fig. 1 gezeigten Enthaliungseinheit 12 und 
dem Dampfungsglied 14 ist eine Einheit 13 zur 
Gerauschunterdruckung vorgesehen. Ist der Sprecher weit vom 
Mikrofon 2 entfernt und besitzt somit der Verstarkungsf aktor 

30 der automatischen Verstarkungsregelung 10 einen hohen Wert, 
wird auch das gesamte Umgebungsrauschen verstSrkt. In diesem 
Fall ist empfehlenswert, das Rauschen zu verringern, um den 
Signal-Gerauschabstand zu verbessern, d. h. zu erhohen. Zu 
diesem Zweck ist die Einheit 13 vorgesehen, deren 

35 GerauschunterdrUckungsfaktor in Abhangigkeit von dem VA- 
Ausgangssignal und dem SNR-Ausgangssignal des 
Sprachaktivitatsdetektors 5 eingestellt wird. Dabei wird ein 
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verbesseijtes Spektralsubtra.ktionsverfahren angewendet, wobei 
im Gegensatz zu herkoiranlichen Verfahren, bei deneii nur die 
Signalamplituden verandert werden',. sowohl die Amplituden als' 
auch die Phasen des Signals verandert werden. Des weiteren 
5 kann durch eine entsprechende Nachbearbeitung die 

Unterdriickung von typischen Storungen, die "music tones" 
genannt werden, erzielt werden. 

Die zuvpr anhand eines bevorzugten Ausf iihrungsbeispiels 
10 ausfuhrl-ich beschriebene Erf indung beruht auf der 

zielgerichteten Koinbination verschiedener Komponenten, um 
einen effektiven Freisprechbetrieb, mit dem entsprechenden 
Mobiltelefon zur realisieren. Dabei sind an dieser Stelle 
insbesondere die Echounterdrtickungseinheit 11, die auch zur 
15 Unterdriickung des Korperschallechos eingesetzt werden kann, 
und die Enthallungseinheit 12 zu nennen. Mit Hilfe des 
Sprachaktivitatsdetektor 5 und der 

GerSuschunterdriickungseinheit 13 kann die Leistungsfahigkeit 
des Mobiltelefons hinsichtlich des Freisprechbetriebs weiter 

20 . verbessert werden. Dariiber hinaus kann das Powermanagement 
des Mobiltelefons durch die von dem Dynamikprozessor 6 
realisierte Dynamikregelung eines Eingangssignals des 
Mobiltelefons und durch die Funktion des Entzerrers 7 
optimiert werden. Die der vorliegenden Erf indung 

25 zugrundeliegende Losung basiert vollstandig auf digitaler 
Signalverarbeitung . 
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■ Patentansprtiche 

1. Mobiltieiefon mit integrierter Freisprechfunktion, ... 

xnit einem Mikrofon (2), lun von. dem Mikrofon (2) aufgenoinmene 
akustische Signale in entsprechende elektrische sfignale 
umzusetzen, 

mit Sende- und Codiermitteln (4) zum Codieren der von dem 
Mikrofon gelieferten Signale und zum tJbertragen der codierten 
Signale an eine Basisstation, 

mit Empfangs- und Decodiermitteln (3) zum Empfangen von 
codierten Signalen von einer Basisstation und zum Decodieren 
der empfangenen Signale / und 

mit einem Lautsprecher (1), um die decodierten Signale in 
entsprechende akustische Signale umzusetzen, 
dadurch gekennzeichnet, 

dafi Echounterdriickungsmittel (11) zur Unterdriickung eines in 
dem Signal des Mikrofons (2) enthaltenen Echoeffekt 
vorgesehen sind. 

2. Mobiltelefon nach Anspruch 1, 
dadurch gekennzeichnet, 

dafi zwischeri das Mikrofon (2) und die Sende- und Codiermittel 
(4) Enthallungsmittel (12) zur UnterdrUckung von in dem 
Signal des Mikrofons (2) enthaltenen Halleffekten geschaltet 
sind. 

3. Mobiltelefon nach Anspruch 1 oder 2, 
dadurch gekennzeichnet, 

daB der Lautsprecher (1) eine niedrige elektrische Impedanz 
im Bereich von 8 Ohm aufweist. 

4. Mobiltelefon nach Anspruch 1, 2 oder 3, 
dadurch gekennzeichnet, 

daB der Lautsprecher (1) eine niedrige akustische Impedanz 
aufweist. 

5. Mobiltelefon nach einem der vorhergehenden tosprUche, 
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daduric'h gekennzeichnet, 

dafi das Mikrofon (2) ein eindirektionales Mikrofon ist. 

6. Mobiltelefon nach einem der vorhergehenden AnsprUche, 
5 dadurc'h gekennzeichnet., 

dafi mit. dem Mikrofon (2) ein Sprachaktivitatsdetektor (5) zur 
Erkennung' des Zustands eines mit dem Mobiltelefon gefiihrten 
Gesprach in Abhangigkeit von dem Ausgangssignal des Mikrofons 
(2) und/oder dem decodierten Signal verbunden ist, und 
10 dafi die Echounterdruckungsmittel (11) und die 

Enthallungsmittel (12) in Abhangigkeit von einem 
Ausgangssignal (VA) des Sprachaktivitatsdetektors (5), 
welches den Zustand des augenblic)clich mit dem Mobiltelefon 
gefUhrten Gesprachs anzeigt, angesteuert werden. 

15 

1, Mobiltelefon nach Anspruch 6, 
dadurch geke n n zeichnet, 
dafi der Sprachaktivitatsdetektor (5). das Ausgangssignal des 
Mikrofons (2) uberwacht und davon abhSngig ihr Ausgangssignal 
(VA) erzeugt, welches anzeigt, ob mit dem Mobiltelefon 
augenblicklich ein Doppelgesprach mit Sprechern an beiden 
Enden der Obertragungsstrecke, ein Einzelgesprach mit einem 
Sprecher am diesseitigen Ende der Obertragungsstrecke, ein 
Einzelgesprach mit einem Sprecher am anderen, abgelegenen 
25 Ende der Obertragungsstrecke Oder Uberhaupt kein Gesprach 
geftihrt wird. 

8. Mobiltelefon nach Anspruch 7, 
dadurch gekennzeichnet, 
30 dafi der Sprachaktivitatsdetektor (5) den Gesprachszustand 
anhand von Schwellenwerten beurteilt, welche an den 
augenblicklichen Gerauschpegel des Ausgangs signals des 
Mikrofons (2) angepafit werden. 

35 9. Mobiltelefon nach Anspruch 8, 

dadurch gek en nzeichnet, 

dafi der Sprachaktivitatsdetektor (5) ein weiteres 
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. Ausgangssignal (SNR) erzeugt, welches den Signal- 
GerSuschabstand des Ausgangssignals des Mikrofons (2) 
anzeigt. 

5. 10. Mobiltelefon nach Anspruch 9, ♦ 
dadurch gekennzeichnet, 
daB der Lautsprecher {1) mit Verstarkungsmitteln (8, 9) 
gekoppelt ist, deren Verstarkungsf aktor in Abhangigkeit von 
dem weiteren Ausgangssignal (SNR) des 
•10 Sprachaktivitatsdetektors (5) eingestellt wird. 

11. Mobiltelefon nach Anspruch 9 oder 10, 
dadurch gekennzeichnet, 

daB mit dem Mikrofon (2) Verstarkungsmittel (10) gekoppelt 
15 sind, urn das Ausgangssignal des Mikrofons (2) mit einem 
variablen Verstarkungsf aktor zu verstarken, wobei d^r 
variable Verstarkungsf aktor in Abhangigkeit von dem weiteren 
Ausgangssignal (SNR) des Sprachaktivitatsdetektors (5) 
eingestellt wird, 

20 

12. Mobiltelefon nach einem der Ansprtiche 9 - 11, 
dadurch gekennzeichnet, 

daB vor die Sende- und Codiermittel (4) Mittel (13) zur 
GerSuschunterdrUckung geschaltet sind, deren 
25 Gerauschunterdrtickungsfaktor in Abhangigkeit von dem weiteren 
Ausgangssignal (SNR) derart automatisch eingestellt wird, daB 
er mit abnehmendem Signal-Rauschabstand zunimmt. 

13. Mobiltelefon nach Anspruch 12, 

30 dadurch gekennzeichnet, 

daB die Echounterdriickungsmittel (11) ein Ausgangssignal 
(ERLE) erzeugen, welches die von den 

Echounterdriickungsmitteln (11) realisierte Echounterdruckung 
anzeigt, und 

35 daB vor die Sende- und Codiermittel (4) ein Dampfungsglied 
(14) mit einem variablen Dampfungsf aktor geschaltet ist, 
wobei der variable Dampfungsfaktor in T^hangigkeit von dem 
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weiteren Ausgangssignal (SNR) des Sprachaktiyitatsdetektors 
(5) eingestellt und an das Ausgangssignal (ERLE) der - 
Echounterdrtickungsmittel (11). angepaBt wird.- 

5 14. Mobiltelefon nach Anspruch 13, 

dadurchgekennzeic.hnet, 

daB der variable Dampfungsf aktor des Dampfungsglieds (14) mit 
abnehniender Echounterdrtlckung durch die 
Echounterdruckungsmittel (11) erhaht wird, und 
10 daB der variable Dampfungsf aktor des Dampfungsglieds (14) bei 
einem durch das weitere Ausgangssignal (SNR) des 
Sprachaktivitatsdetektors (5) angezeigten niedrigen Signal- 
Rauschabstand reduziert wird. 

15 15. Mobiltelefon nach einem der vorhergehenden Anspruche, 
dadurch gekennzeichnet, 
daB zwischen den Empfangs- und Decodiermitteln (3) und dem 
Lautsprecher (1) ein Dynamikregler (6) zum Komprimieren 
und/oder Expandieren der von den Empfangs- und 

20 Decodiermitteln (3) ausgegebenen Signale angeordnet ist. 

16, Mobiltelefon nach Anspruch 15, 
dadurch gekennzeichnet, 

daB der Dynamikregler (6) einen Kompressor, einen Expander 
25 und/oder eine eingangsgesteuerte Begrenzerschaltung umfaBt. 

17. Mobiltelefon nach Anspruch 15 oder 16, 
dadurch gekennzeichnet, 

daB dem Dynamikregler (6) ein nichtlinearer Entzerrer (7) 
30 nachgeschaltet ist. 



18. Mobiltelefon nach Anspruch 7, 
dadurch gekennzeichnet, 
daB den Enthallungsmitteln (12) das Ausgangssignal (VA) des 
35 Sprachaktivitatsdetektors (5) zugefUhrt ist, und 

daB die Enthallungsmittel (12) derart ausgestaltet sind, daB 
sie die akustische Impulsantwort des Raums, in dem sich der 
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Sprecher befindet, durch tlberwachuhg des Ausgangssignals. des 
Mikrofons (2) abschatzen, falls das Ausgangs signal (VA) des 
Sprachaktivitatsdetektors (5) ein Einzelgesprach mit einem 
Sprecher am anderen Ende der Ubertragungsstrecke anzeigt, 
wobei die Enthallungsmittel (12) die somit gewonn^ne 
akustische Impulsantwort anschlieBend der Enthallung des 
Ausgangssignals des Mikrofons (2) zugrunde legen. 
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(57) Abstract: The invcniion relates to a mobile telephone which so as lo permii hands-free operation comprises means (1 1) for echo 
cancellation and means ( 12) for the dercvcrberaiion of the signal supplied by a microphone (2) of the mobile telephone. The targeted 
combining of different components, which can, for example, include units for voice recognition (5), automatic volume control (8, 
10) and noise suppression (13. 14). permits efllcient hands-free operation. Energy consumption can be minimized through the use 
of a dynamic compressor (6). 
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(57) Zusammeafassung: Mobilielefon, wobei zur Rcalisiening eines Freisprechbeiriebs Mitlel (1 1) zur Echounierdriickung und 
Mitiei (1 2) zur Enihallung des von cmcm Mikrofon (2) des Mobiltclcfons geliefeitcn Signals vorgesehen sind. Durch die ziclgerich- 
tete Kombinaiion vcrschiedener Komponenten, wobei beispielsweise auch Einheiten zur Spracheikennung (5). zur automatischen 
VerstSilningsiegclung (8, 10) und zur Gerauschunierdrtickung (13, 14) vorgeselten sein kdnnen. wird ein effizienter Freisprechbc- 
trieb ermfiglichl. Duich den Einsaiz eines dynamischen Kompressors (6) kann der Energieveirbrauch minimien werden. 
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Mobile Telephone 

The present invention concerns a mobile telephone, particularly a mobile telephone that enables a user 
to engage in handsfiee talking. 

Currently known solutions for mobile telephones, which are operated essentially in cellular networks, 
are based entirely on digital signal processing (DSP). However, these standard DSP solutions have not 
heretofore allowed the user handsfree operation. This is due, among other things, to the feet that 
handsfi?ee talking is associated with several problems that cannot readily be eliminated in the case of 
mobile phones. These problems relate, for example, to power management inside the mobile phone, 
since, among other things, during hands&ee talking a higher volume is needed for the loudspeaker 
than in the case of hands-on operation, and it is necessary to overcome the echo and reverberation that 
occur during handsfree talking. 

The object of the present invention is, therefore, to create a mobile telephone that permits handsfree 
operation, said proposed mobile telephone being intended in particular to render feasible a solution 
that is based entirely on digital signal processing. 

This object is achieved according to the present invention by means of a mobile telephone having the 
features of Claim 1 . The dependent claims describe preferred and advantageous embodiments of the 
present invention; which for their part help to improve the characteristics of handsfree operation and 
to support digital signal processing. 

The mobile telephone according to the invention comprises, in the signal path between the 
microphone and the transmitting and encoding means, which transmit the communication information 
in encoded form to a base station, echo suppression means that process the electrical signal supplied 
by the microphone in such fashion that an echo effect picked up by the microphone is largely 
eliminated, together with dereverberation means that process the signal supplied by the microphone in 
such fashion that a reverberation effect picked up by the microphone is suppressed. 
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The loudspeaker used is preferably one possessing a low electrical impedance, particularly in the 
range of 8-ohm, and a low acoustical impedance. The microphone is advantageously a unidirectional 
microphone or a microphone that has noise suppression. 

The mobile telephone advantageously con^rises a speech activity detector, which monitors and 
analyzes the signal supplied by the microphone and the loudspeaker signals and &om them draws 
conclusions as to the status of a conversation being conducted on the mobile phone. For instance, by 
analyzing the signal energies, the speech activity detector can recognize whether the remote 
subscriber, the local subscriber or both subscribers are talking. The speech activity detector also 
recognizes when no commimication information at all is being exchanged instantaneously over the 
mobile phone. This speech activity detector generates an output signal that identifies the instantaneous 
speech activity on the mobile phone. In addition, by monitoring the signal supplied by the microphone, 
the speech activity detector can also estimate the signal-to-noise ratio and hold a corresponding 
additional output signal in readiness. 

Amplification means with a variable amplification factor can be connected in both the loudspeaker 
path and the microphone path, the respective amphfication Actors being adjusted automatically in 
dependence on the output signal fix)m the speech activity detector that indicates the signal-to-noise 
ratio. Noise suppression means can also be connected in the microphone path, the degree of noise 
suppression also being adjusted in dependence on the speech output signal fiom the activity detector 
that indicates the signal-to-noise ratio. 

The echo suppression means and the dereverberation means of the mobile telephone are driven by the 
output signal fiom the speech activity detector that indicates the instantaneous speech activity and the 
instantaneous conversation status. In dependence on these signals, die echo siqppression means 
generate a control signal that estimates the echo suppression performed by said means themselves, so 
that an additionally provided attenuator with a variable attenuation factor can be adjusted accordingly, 
as a fiinction of the control signal. By monitoring the output signal supplied by the microphone, the 
dereverberation means estimate the acoustic impulse response of the room in which the speaker is 
located in cases where the output signal fix>m the speech activity detector that indicates the 
instantaneous speech activity indicates a one-way conversation in which the speaker is located at the 
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other (remote) end of the transmission path. The thus-obtained acoustic impulse response of the room 
can be used to effect dereveiberation, for efficient equalization of the signal supplied by the 
microphone. 

Downstream of the decoding and receiving means of the mobile telephone, which decode a 
communication signal transmitted by a base station and deliver it to the loudspeaker of the mobile 
telephone, diere can be connected a dynamic controller that compresses or expands this input signal in 
order thereby to reduce the ratio of peak to average current demand of the mobile phone and permit 
more efficient dimensioning of the power supply. In addition, upstream of the encoding and 
transmitting means of the mobile phone there can be coimected an additional unit for noise 
suppression, driven by the two aforementioned output signals of the speech activity detector, in order 
to improve Ustening comfort during hands&ee operation of the mobile phone. 

The present invention provides a goal-oriented combination of various components to achieve 
effective handsfree operation with a mobile telephone. The invention permits miniaturization of the 
components used, and is based in particular on a completely digital signal processing solution, i.e., all 
operations are executed by digital signal processing. The proposed echo suppression according to the 
invention makes for comfortable conversation, while speech intelligibility is improved by the 
dereveiberation. 

The present invention is described in more detail hereinbelow on the basis of a preferred embodiment 
with reference to the appended drawing, in which the sole figure is a simplified schematic block 
circuit diagram of a preferred exemplary embodiment. 

The air inter&ce of the mobile telephone illustrated in Fig. I comprises a receiving and decoding unit 
3, which decodes an input signal transmitted by a base station, and a transmitting and encoding unit 4, 
which encodes and transmits the signals to be transmitted to a base station. Receiving and decoding 
unit 3 is coupled to a loudspeaker 1 of the mobile telephone, while a microphone 2 of the mobile 
telephone is connected to transmitting and encoding unit 4 via a corresponding signal path. 



For the loudspeaker to have adequate fiinctionaUty, it is necessary to use a loudspeaker 1 that has a 
low electrical impedance, particularly a loudspeaker with an 8-ohm receiver, in order to attain 

3 



wo 00/60830 PCT/DEOO/00620 

sufficient acoustical power, which should be in the range of 0.5 to 1 W. In receive mode or hands-on 
operating mode it is necessary to adhere to the frequency response characteristic of the GSM mobile 
radio standard, and it is therefore proposed in this regard to use a loudspeaker 1 with low acotistical 
inq)edance. In addition, for purposes of echo or reflection attenuation, the loudspeaker 1 should also 
have the lowest possible inherent distortion. 

The microphone 2 used can basically be a nondirectional, omnidirectional or unidirectional 
microphone. However, experimental results have shown that the best performance can be achieved 
with the use of a unidirectional or noise-suppressing microphone. This does, of course, make for more 
stringent requirements as to the mechanical construction of the microphone, especially in regard to the 
acoustic sealing of its audio inputs. 

A central component of the mobile telephone depicted in Fig. 1 is a speech activity detector 5, which 
detects speech activity on the transmission path at the end of which the mobile telephone is located. 
Speech activity detector 5 monitors the output signal supplied by microphone 2 and the output signal 
supplied by receiving and decoding unit 3, and can determine from the energies of these signals 
whether the remote subscriber, the local subscriber or both subscribers are talking. Above all, a 
decision can be made as to whether the instantaneous conversation is a two-way or double 
conversation, in which the microphone signal contains speech information from speakers at both ends 
of the transmission path, or whether it is a one-way conversation on the part of the remote subscriber 
in which the microphone signal contains an echo. 

Speech activity detector 5 can also determine that no speech activity at all is present at a given instant. 
The speech activity detector S reaches this decision based on an analysis of threshold values adapted 
to the instantaneous noise level, and thus a reliable decision can be made in the presence of both quiet 
and loud environmental noise. This adaptation of the threshold values is also associated with an 
estimate of the noise level and the signal-to-noise ratio. Thus, speech activity detector 5 supplies two 
output signals VA and SNR, the one output signal VA characterizing the instantaneous speech 
activity, while the other output signal SNR indicates the signal-to-noise ratio (SNR). 



The power supply for the components illustrated in Fig. 1 must be considered in the context of the 
overall power management system of the mobile phone, and depends in particular on the types of 
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batteries or accumulators used (e.g. their supply voltage and internal resistance), the type of HF power 
amplifier used, and the logic supply voltage used. In this connection, a major problem with the 
handsfiw operation of mobile telephones operated in cellular networks is that the sound output 
delivered by the loudspeaker I must be higher than in the conventional case, without hands&ee 
operation. On the other hand, with battery-powered products, as, for example, in the present case of 
mobile telephones, there is basically a need for energy consumption to be as low as possible. As is 
known, speech signals, in particular, due to their high instability, exhibit an especially high 
peak-to-average-amplitude ratio. The power supply of the mobile phone must therefore be capable, on 
the one hand, of powering the device for periods during which speech signals having peak an^slitude 
values are present, and on the other hand, to operate it at a much lower power, on the average. 

For this reason, with respect to the mobile telephone shown in Fig. 1, dynamic control of the speech 
signal by suitable digital signal processing is provided before the speech signal is deUvered to the 
loudspeaker 1. This has die advantage that more ef&cient dimensioning of the power supply can be 
achieved with relatively simple means, with little effort and at low cost 

The purpose of this dynamic control of speech signals is to increase or decrease the dynamic range of 
the audio signals without thereby adding any perceptible distortion. This task is performed by a 
dynamic processor, which is usually composed of several stages, specifically a limiter, a compressor, 
an expander and a noise filter. For example, the combination of a compressor and a limiter (not shown) 
can be selected if the primary goal is to reduce the ratio of peak to average power demand and to limit 
peak output. With regard to the Umiter, the preferred solution is an input-controlled, forward-coupled 
limiter structure with a delay element having a servo feedback stmcture. This structure has the 
advantage of completely preventing overshoots at the output of the limiter and permitting precisely 
defined control. With block-by-block speech processing, a very small delay time can be selected for 
the aforementioned delay element The statistical characteristic curve of the compressor is defined by 
various threshold points in the logarithmic region, the logarithmic or exponential fimctions of the 
compressor being implemented in the form of look-up tables. 

Dynamic control in the form of digital signal processing enables the response and release time 
constants to be selected independently of one other. This is achieved in both cases through the use of 
first-order (exponential) filters. Peak-value and average-value detection are combined in such a way 
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that isolated peak values are processed with a relatively short release time, while the release time for 
signal periods having a higher average signal level are [sic] increased This approach prevents 
unnecessary compression and any distortion of the input signal. The limiter must be active for high 
average signal levels, however. 

Connected after the dynamic controller 6 shown in Fig. 1 is a nonlinear equalizer 7. Since the 
loudspeaker 1 has to be operated near saturation, there is an increase in nonlinear distortion such as 
harmonic or intermodulation distortion. To reduce this undesired effect, nonlinear distortion' must be 
performed, the algorithms used for this purpose being constructed, for example, on the basis of those 
described in W. Frank, R. Reger and U. Appel, "Realtime loudspeaker linearization," IEEE Winter 
Workshop on Nonhnear Digital Signal Processing, Tampere, Finland, January 2-3, 1993. 

As noted hereinabove, one problem associated with handsfree talking on mobile phones is, in 
particular, that the loudspeaker 1 must have a higher volume in hands&ee operation than in normal 
hands-on operation. The sensitivity of the microphone 2 must also be higher for handsfi:ee operation. 
It is therefore proposed to adjust the volume of the loudspeaker 1 in dependence on the noise level of 
the environment of the mobile phone. Hence, connected ahead of loudspeaker 1 is a power an^lifier 
9 driven by an automatic gain control 8. Said automatic gain control 8 is driven in turn by the SNR 
output signal of speech recognition unit 5, thus enabling the automatic gain control 8 to adjust the 
amplification factor of power amplifier 9 as a function of the signal-to-noise ratio estimated by speech 
recognition unit 5. More important than automatic gain control 8 is a further automatic gain control 10 
coupled to microphone 2. Because the distance between the speaker and the microphone 2 varies, the 
signal level of the microphone signal picked up from microphone 2 fluctuates widely. This effect must 
be compensated for by the variable amplification factor of automatic gain control 10. Automatic gain 
control 10 is also driven by the SNR ou^ut signal of speech recognition unit 5. 

A further essential component of the mobile telephone illustrated in Fig. 1 is an echo suppression unit 
1 1, which is connected in the signal path between microphone 2 and transmitting and encoding unit 
4. Said echo suppression unit 11 has the task of eliminating or suppressing any acoustic echo 
generated between loudspeaker 1 and microphone 2. On this count, reference may be made to the 



^TRANSLATOR'S NOTE: Sic. The German nichtlineare Verzerrung is presumably an error for 
nichtlineare Entzerrung^ nonlinear equalization. 
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publication "Signal Processing," Special Issue on Acoustic Echo Control^, Vol 27, No. 3, June 1992. 
In addition to the echo path existing between loudspeaker I and microphone 2, a further echo path 
caused by the high signal level at loudspeaker 1 and the resulting vibrations can lead through the 
housing of the mobile phone. The acoustic inq)ulse response can be of very long duration, depending 
on the environment in which the mobile phone is being operated The associated decrease in output 
can be dealt with by performing explicit decimation, as described, for exanc^le, in R.£. Crochiere and 
L.R. Rabiner, Afultirate Digital Signal Processing, Prentice-Hall, New Jersey, 1983, or implicit 
decimation, as described, for example, in W. Frank and I. Varga, "Implicit decimation for FIR systems 
and its application to acoustic echo cancellation," International Conference on Acoustics, Speech and 
Signal Processing, Phoenix, Arizona, 1999. Based on the VA output signal of speech recognition unit 
5, echo suppression unit 1 1 can estimate the extent to which it is able to suppress an echo present in 
the signal picked up from microphone 2. Echo suppression unit 1 1 generates on this basis an output 
signal that contains information concerning the extent of the echo suppression performed by echo 
suppression imit 11 (Echo Return Loss Enhancement, ERLE). A particular problem is that of 
differentiating between a one-way conversation in which the speaker is at the other end of the 
transmission path and a two-way conversation, i.e., deciding whether the microphone signal merely 
contains the echo of a speaker at the other end of the transmission path, or also contains the echo of the 
speaker at this end of the transmission path. Speech activity detector S must therefore [verb missing] 
additional characteristics, for example the cross-correlation between the microphone signal and the 
ERLE output signal of echo suppression unit 1 1, which is therefore supplied to speech activity 
detector 5, as can be seen [from] Fig. 1. 

As shown in Fig/ 1, coimected before transmission and encoding unit 4 is an attenuator 14 with a 
variable attenuation factor. Both the ERLE output signal of echo siq>pression unit 1 1 and the VA and 
SNR output signals of speech recognition unit 5 are supplied to this attenuator 14, so that the 
attenuating factor can be adjusted as a function of these signals. Attenuator 14 serves to provide 
additional attenuation of the microphone signal should the echo suppression performed by echo 
suppression unit 1 1 be insufficient For this reason, the ERLE and SNR signals are delivered to the 
attenuator 14, so that as the echo suppression performed by echo siqipression unit 1 1 decreases, the 
attenuation factor of attenuator 14 can be increased When the signal-to-noise ratio indicated by the 
SNR output signal of speech activity detector 5 is low, which is synonymous with a high noise level. 



^TRANSLATOR'S NOTE: Punctuation as given in the German original. 
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the attenuation factor of attenuator 14 should be reduced to prevent strong modulation of the noise 
level. The residual echo will in any case be niasked by the noise present in the signal. 



The speech signals picked up by the microphone 2 of the mobile phone during handsfree operation 
usually contain strong reverberation effects caused by room reflection. Owing to the nonuniform 
amplitude spectrum, only a specific noise distribution is perceived in small rooms, whereas in large 
rooms early reflections are perceived as echo and late reflections as reverberation. The stereophonic 
perception capability of human hearing makes for good speech recognition if the listener himself is in 
the room. Stereophonic perception cannot woric properly, however, in the case of a speech signal 
picked up and transmitted on a single channel. Consequently, a dereverberation unit 12 is provided, 
which tends to improve speech intelhgibiUty and make for more comfortable hands&ee operation in 
these situations. 

The dereverberation performed by dereveiberatioii unit 12 is based on the principles of deconvolution 
or equalization, as described, for example, in S.T. Neely and J.B. Allen, "Invertibility of a room 
impulse response," J. Acoust Soc. Am,, Vol. 66, No. 1 (July 1979), pp. 165-169. Three methods of 
conditioning speech signals that are distorted by reverberation effects were developed and studied 
experimentally. The first approach includes the use of a microphone array and a postprocessing 
algorithm. In this case, the deconvolution is based on the fact that the correlation between the impulse 
responses of each individual microphone is low for temporally late reverberation effects. In the 
second method, the time interval during which a one-way conversation with a speaker at the other end 
of the transmission path is detected by the speech activity detector 5 is utilized to estimate the room 
impulse response. The room impulse response so obtained serves as the basis for the dereverberation 
algorithm. For this reason, in the arrangement shown in Fig. 1 the VA output signal of speech activity 
detector S is supplied to the dereverberation unit 1 2 in order to determine the beginning and end of this 
time interval during which a one-way conversation is being conducted with a speaker at the other, 
remote end of the transmission path. In the third approach, it is proposed to treat the deconvolution 
problem as a minimization problem. These individual ^roaches can be combined with each other, 
which does increase the complexity, but at the same time makes it possible to in^rove the efficiency 
of the dereverberation unit 12. 
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Provided between the dereverberation unit 12 and the attenuator 14 shown in Fig. 1 is a unit 13 to 
effect noise suppression. If the speaker is far from microphone 2 and the amplification factor of 
automatic gain control 10 therefore has a high value, all the environmental noise is also amplified. In 
this case, it is advisable to decrease the noise in order to improve, i.e. increase, the signal-to-noise ratio. 
Provided for this purpose is unit 13, whose noise suppression factor is adjusted in dependence on the 
VA output signal and the SNR output signal of speech activity detector S. An improved spectral 
subtraction method is used, although in contrast to conventional methods, where only the signal 
amplitudes are varied, here both the amplitudes and the phases of the signals are varied. In addition, 
typical noise, known as "music tones," can also be suppressed by suitable postprocessing. 

The invention described in detail hereinabove with reference to a preferred embodiment is based on 
the goal-oriented combining of various components to achieve effective handsfree operation with the 
mobile telephone concemed. Especially noteworthy in this connection are echo suppression unit 1 1, 
which can also be used to suppress impact-noise echo, and dereverberation unit 12. The performance 
of the mobile phone during handsfree operation can be further improved by the use of speech activity 
detector 5 and noise suppression imit 13. In addition, the power management of the mobile telephone 
can be optimized by the dynamic control of an input signal of the mobile telephone, performed by 
dynamic processor 6, and by the operation of equalizer 7. The solution underlying the present 
invention is based entirely on digital signal processing. 
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Claims 

1 . A mobile telephone possessing an integrated handsfree function and comprising a microphone (2) 
to convert the audio signals picked up by said microphone (2) into corresponding electrical signals, 
transmitting and encoding means (4) to encode the signals supplied by said microphone and transmit 
the encoded signals to a base station, 

receiving and decoding means (3) to receive encoded signals from a base station and decode the 
received signals, and 

a loudspeaker ( 1 ) to convert the decoded signals into corresponding audio signals, 
characterized in that 

echo suppression means (1 1) are provided for suppressing an echo effect present in the signal from 
said microphone (2). 

2. The mobile telephone as recited in claim 1, 
characterized in that 

connected between said microphone (2) and said transmitting and decoding means (4) are 
dereverfoeration means (12) for suppressing reverberation e£fects present in said signal from said 
microphone (2). 

3. The mobile telephone as recited in claim 1 or 2, 
characterized in that 

said loudspeaker (1) has a low electrical impedance in the range of 8-ohm. 

4. The mobile telephone as recited in claims 1, 2 or 3, 
characterized in that 

said loudspeaker (1) has a low acoustical impedance. 
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5. The mobile telephone as recited in one of the preceding claims, 
characterized in that 

said microphone (2) is a unidirectional microphone. 

6. The mobile telephone as recited in one of the preceding claims, 
characterized in that 

connected to said microphone (2) is a speech activity detector (5) for recognizing the status of a 
conversation being conducted with said mobile telephone in dependence on the output signal of said 
microphone (2) and/or the decoded signal, and 

in that said echo suppression means (11) and said dereverberation means (12) are driven in 
dependence on an output signal (VA) of said speech activity detector (5) that indicates the status of the 
conversation being conducted instantaneously with said mobile telephone. 

7. The mobile telephone as recited in claim 6, 
characterized in that 

said speech activity detector (5) monitors the output signal of said microphone (2) and generates in 
dependence thereon its output signal (VA), which indicates whether said mobile telephone is being 
used instantaneously for a two-way conversation widi speakers at both ends of the transmission path, 
a one-way conversation with one speaker at this end of the transmission path, a one-way conversation 
with one speaker at the other, remote end of the transmission path, or no conversation whatsoever. 

S. The mobile telephone as recited in claim 7, 
characterized in that 

said speech activity detector (5) evaluates the conversation status on the basis of threshold values that 
are adapted to the instantaneous noise level of said output signal of said microphone (2). 

9. The mobile telephone as recited in claim 8, 
characterized in that 

said speech activity detector (5) generates a further output signal (SNR) that indicates the 
signai-to-noise ratio of said output signal of said microphone (2). 
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10. The mobile telephone as recited in claim 9, 
characterized in that 

said loudspeaker (1) is coupled to amplification means (8, 9) whose respective amplification factors 
are adjusted in dependence on said further ou^ut signal (SNR) of said speech activity detector (5). 

1 1 . The mobile telephone as recited in claim 9 or 10, 
characterized in that 

coupled to said microphone (2) are amplification means (10) to amplify said ou^ut signal of said 
microphone (2) by means of a variable amplification &ctor, said variable amplification factor being 
adjusted in dependence on said further output signal (SNR) of said speech activity detector (5). 

12. The mobile telephone as recited in one of claims 9 to 1 1, 
characterized in that 

connected before said transmitting and encoding means (4) are means ( i 3) to effect noise suppression, 
whose noise suppression factor is adjusted automatically in dependence on said fiirther output signal 
(SNR) in such fashion that it increases as the signal-to-noise ratio decreases. 

13. The mobile telephone as recited in claim 12, 
characterized in that 

said echo suppression means (11) generate an output signal (ERLE) that indicates the echo 
suppression being performed by said echo suppression means (11), and 

in that connected before said transmitting and encoding means (4) is an attenuator (14) having a 
variable attenuation factor, said variable attenuation factor being adjusted in dependence on said 
further output signal (SNR) of said speech activity detector (S) and adapted to said output signal 
(ERLE) of said echo suppression means (11). 

14. The mobile telephone as recited in claim 13, 
characterized in that 

said variable attenuation factor of said attenuator (14) is increased as the echo suppression performed 
by said echo suppression means (11) decreases, and 

in that said variable attenuation factor of said attenuator (14) is reduced should said further output 
signal (SNR) of said speech activity detector (5) indicate a low signal-to-noise ratio. 
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1 5. The mobile telephone as recited in one of the preceding claims, 
characterized in that 

arranged between said receiving and decoding means (3) and said loudspeaker (1) is a dynamic 
controller (6) for compressing and/or expanding the signals output by said receiving and decoding 
means (3). 

16. The mobile telephone as recited in claim IS, 
characterized in that 

said dynamic controller (6) comprises a compressor, an expander and/or an input-controlled limiter 
circuit. 

17. The mobile telephone as recited in claim 15 or 16, 
characterized in that 

said dynamic controller (6) is connected after a nonlinear equalizer (7). 

1 8. The mobile telephone as recited in claim 7, 
characterized in that 

said output signal (VA) of said speech activity detector (5) is supplied to said dereverberation means 
(12) and 

in that said dereverberation means (12) are implemented such as to estimate the acoustical impulse 
response of the room in which the speaker is located by monitoring said output signal of said 
microphone (2) in the event that said output signal (VA) of said speech activity detector (5) indicates 
a one-way conversation with a speaker at the other end of the transmission path, said dereverberation 
means (12) then using the acoustical impulse response so obtained as the basis for dereverberation of 
said output signal of said microphone (2). 
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